Identification et structuration hiérarchique des titres dans les documents HTML
نویسندگان
چکیده
In this paper, we describe a method to automatically identify titles within Web pages. Although HTML syntax provides specific tags for titles, they are not always correctly used, and sometimes they do not even appear. We use visual clues like font size or colour provided by Cascading Style Sheets in order to retrieve the title hierarchy. The assumption is that the level of an element in the title hierarchy increases with its visibility. We automatically built a CSS corpus by crawling the Web and used it to learn a Hidden Markov Model which identifies titles and their hierarchy. Primary results give a F-Measure of 0.70 for titles structuring and 0.86 for titles identification. MOTS-CLÉS : Hiérarchie des titres, Modèle de Markov Caché, Balises de visibilité, document HTML, Corpus Web.
منابع مشابه
Traiter les documents XML avec les « contextes de lecture »
RÉSUMÉ. Le langage XML autorise, par sa souplesse de structuration, des manipulations du contenu qui créent parfois des ruptures arbitraires dans le flot naturel du texte. Ces caractéristiques soulèvent des difficultés lorsque l’on souhaite mettre en œuvre des techniques d’analyse automatique du contenu des documents XML. Cet article présente cette problématique et y répond, sur le plan théoriq...
متن کاملEtablissement de l'immunité et élaboration des anticorps neutralisants et agglutinants, chez le lapin, par injection de virus de la vaccine incorporé dans les vaccins associés. Rôle des injections de rappel
متن کامل
فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملLes variations dans la fermentation des glucides par Salmonella gallinarum et Salmonella pullorum. Leur intérêt diagnostic
متن کامل
Gestion auto-stabilisante avec garantie de service de la connaissance des clusters voisins
Résumé Le partitionnement en clusters est proposé dans les réseauxmobiles sans infrastructure pour améliorer leurs performances. Comme les protocoles de partitionnement sont adaptatifs aux changements topologiques, la structure hiérarchique produite sera dynamique : des clusters peuvent apparaître et disparaître au cours du temps. Par conséquent, tous les protocoles hiérarchiques doivent être é...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2009